Performance des étudiants
Introduction
Nous allons travailler sur 2 bases de données composées de données récoltées à la suite d’un questionnaire dans 2 écoles différentes sur 2 différentes matières (les maths et le portugais). La première base de données concerne les mathématiques où nous retrouvons comme variables d’interêts les notes de chaque étudiant et comme variables explicatives les données issues du questionnaire. La seconde base de données concerne le portugais et contient les mêmes variables que la première base de données.
L’axe de travail principal est de déterminer quelles sont les variables qui ont un rôle important dans la performance des étudiants et celles qui ont le moins d’intêret.
Dans un premier temps, notre travail consiste à nettoyer les bases de données pour enlever les valeurs absurdes puis dans un second temps d’analyser les différentes variables explicatives en fonction de notre variable d’intérêt. Enfin nous pourrons tirer des conclusions et en tirer des axes de travail pour nos travaux ultérieurs.
De plus, nous allons dans nos analyses toujours comparer les résultats en fonction des deux écoles et des deux matières (base de données) qui semblent être des axes logiques de comparaison.
Voici notre première base de données (sur la matière mathématiques) :
Voici note seconde base de données (sur la matière portugais) :
À la suite de la lecture de nos bases de données, voici un tableau récapitulant les effectifs dans les deux matières et les effectifs dans les deux écoles :
| Mathematiques | Portuguais | Total | Pourcentage | |
|---|---|---|---|---|
| Gabriel Pereira (GP) | 349 | 423 | 772 | 74% |
| Mousinho da Silveira (MS) | 46 | 226 | 272 | 26% |
| Total | 395 | 649 | 1044 | 100% |
| Pourcentage | 38% | 62% | 100% |
On remarque que nous avons beaucoup plus de données pour la matière portugais et pour l’école Gabriel Pereira.
| G1 | G2 | G3 | gradetot | G1 | G2 | G3 | gradetot | |
|---|---|---|---|---|---|---|---|---|
| Min | 3.000 | 0.000 | 0.000 | 1.333 | 0.000 | 0.000 | 0.000 | 1.333 |
| Max | 19.000 | 19.000 | 20.000 | 19.333 | 19.000 | 19.000 | 19.000 | 18.667 |
| Moyenne | 10.909 | 10.714 | 10.415 | 10.679 | 11.399 | 11.570 | 11.906 | 11.625 |
| Mediane | 11.000 | 11.000 | 11.000 | 10.667 | 11.000 | 11.000 | 12.000 | 11.667 |
| Ecart.type | 3.319 | 3.762 | 4.581 | 3.697 | 2.745 | 2.914 | 3.231 | 2.833 |
En observant, les trois notes et la moyenne de ces notes (gradetot), on constate que:
Les notes minimales et maximales de maths sont équivalentes à celles de portugais
La médiane de la moyenne et la moyenne de la moyenne sont plus élevées pour les notes de portugais donc les notes de portugais sont globalement meilleures
La moyenne des moyennes et la médiane des moyennes pour les maths sont presques équivalentes : le niveau des meilleurs ne l’emporte pas sur le niveau des plus faibles
On observe les mêmes choses pour le portugais mais l’écart-type est bien plus faible que pour les maths : il y a une moins grande disparité.
Nettoyage base de données et hypothèses
Dans cette partie, l’objectif est d’avoir un aperçu plus clair de nos bases de données sans valeurs abérrantes ou de valeurs non renseignées.| Maths | Portugais | |
|---|---|---|
| Valeurs manquantes | 0 | 0 |
Il n’y a aucune donnée manquante dans les bases de données.
À la lecture de notre base de données, nous nous sommes rendu compte d’un problème majeur lié à l’âge. En effet, nous étudions les données sur des étudiants du second cycle (entre 15 et 18 ans) et donc il est très peu probable qu’un étudiant de 15 ans ayant redoublé 3 fois puisse être au second cycle. Nous avons donc créé une fonction qui supprime tous les individus n’ayant pas l’âge requis, c’est-à-dire plus de 20 ans ou moins de 15 ans lorsque l’on soustrait le nombre de redoublements à l’âge de l’étudiant.
Cela enlève 21 individus dans la base de données sur les mathématiques et 14 individus dans la base de données sur le portugais.
En ce qui concerne les hypothèses faites sur nos données:
Nous avons décidé de prendre les 3 notes pour en créer une moyenne générale. Cette moyenne est d’après nous la moyenne du trimestre avec pour chaque grade la note à chaque contrôle.
Les individus sont tous différents entre les deux bases de données.
On a n > 30 lors de nos tests, nous n’avons donc pas besoin de faire un test de normalité car les échantillons sont assez grand pour être approché par une loi normale d’après le théorème central limite.
Très forte corrélation entre les 3 grades. Surtout entre G2 et G3. Ceci peut confirmer notre hypothèse de faire la moyenne des trois notes comme variable d’intêret.
Analyse des variables
Renseignements généraux
Sexe
| Hommes | Femmes | Hommes | Femmes | |
|---|---|---|---|---|
| Grabriel Pereira (GP) | 157 | 171 | 180 | 235 |
| Mousinho da Silveira (MS) | 21 | 25 | 79 | 141 |
| Total | 178 | 196 | 259 | 376 |
Ce tableau regroupe les effectifs en fonction du sexe, de l’école et de la matière. On remarque que pour les mathématiques le nombre de filles est un peu supérieur mais que pour le portugais nous avons beaucoup plus de filles.
Maintenant observons les moyennes en fonction du sexe ainsi que de l’école :
On peut voir que pour les maths, dans l’école Gabriel Pereira les garcons semblent légèrement meilleurs que les filles et dans l’école Mousinho Da Silveira les notes sont équivalentes. Pour le portugais, les notes sont plutot équivalentes entre les sexes mais les notes pour l’école Gabriel Pereira sont plus élevées que pour l’école Mousinho Da Silveira peu importe le sexe.
| Maths | Portugais | |
|---|---|---|
| Moyenne des filles | 10.5595238 | 11.9707447 |
| Moyenne des garcons | 11.2865169 | 11.2895753 |
| Borne inf. de l’IC à 95% de la diff. | -1.4615292 | 0.2368284 |
| Borne sup. de l’IC à 95% de la diff. | 0.0075432 | 1.1255103 |
| p-value du test de moyenne | 0.0523871 | 0.0027133 |
| p-value test de variances | 0.6233192 | 0.9095116 |
Pour chaque matière, le test de variances renvoit une égalité de variances dû à une p-value > 0.05. Pour les tests de moyennes, en maths, on obtient une p-value > 0.05, donc on ne peut pas conclure sur une moyenne qui diffère en fonction du sexe et en portugais la p-value est < 0.05 donc le sexe peut jouer un rôle dans les résultats. En conclusion, la variable sexe ne semble pas avoir un impact majeur dans les notes obtenues par les étudiants.
Age
| 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| entre 0 et 5 | 3 | 4 | 4 | 8 | 3 | 0 | 0 | 0 | 0 | 1 | 1 | 7 | 3 | 0 | 0 | 0 |
| entre 5 et 10 | 17 | 30 | 31 | 32 | 10 | 1 | 1 | 1 | 13 | 34 | 36 | 35 | 12 | 2 | 1 | 1 |
| entre 10 et 15 | 35 | 47 | 47 | 32 | 11 | 1 | 0 | 0 | 85 | 119 | 106 | 71 | 17 | 4 | 1 | 0 |
| entre 15 et 20 | 16 | 17 | 12 | 10 | 0 | 1 | 0 | 0 | 10 | 19 | 30 | 27 | 0 | 0 | 0 | 0 |
On remarque que pour chacune des matières les notes les plus élevées sont pour les étudiants ayant entre 15 et 18 ans. Les élèves agés n’ont jamais plus de 15. La plupart des élèves pour les autres âges ont entre 10 et 15 sur 20.
On a une forte concentration d’étudiants entre 15 et 19 ans pour les deux matières, ce qui est normal car nous sommes dans le second cycle. Nous avons peu d’étudiant de 20 ans ou plus et on peut penser que ce sont des redoublants pour la plupart.
Il semblerait donc que le fait d’être agé baisse la note moyenne des étudiants, toutefois la répartition pour les autres ages semble normale et donc l’âge ne joue pas un rôle préponderant dans la moyenne de l’élève.
Address
| GP | MS | GP | MS | |
|---|---|---|---|---|
| R | 57 | 25 | 76 | 114 |
| U | 271 | 21 | 339 | 106 |
Ici, on remarque que pour les deux matières, nous avons plus de personnes venant de la ville que de la campagne, mais dans l’école Mousinho Da Silveira il y a plus de personnes venant de la campagne que de la ville pour les deux matières ce qui veut surement dire que cette école se situe loin d’une grande ville au contraire de l’école Gabriel Pereira. En ce qui concerne les résultats, les notes semblent similaires entre les écoles mais la moyenne pour les personnes venant de la ville est meilleure que pour ceux venant de la campagne.
Nous allons maintenant tester les moyennes en maths et en portugais pour savoir si l’on peut considérer les moyennes comme différentes et donc que le fait de provenir de la ville ou de la campagne joue un rôle dans les notes des étudiants.
| Maths | Portugais | |
|---|---|---|
| Moyenne des etudiantS à la campagne | 10.1422764 | 10.9964912 |
| Moyenne des etudiant en ville | 11.1198630 | 11.9902622 |
| Borne inf. de l’IC à 95% de la diff. | -1.8631495 | -1.4915842 |
| Borne sup. de l’IC à 95% de la diff. | -0.0920237 | -0.4959577 |
| p-value du test de moyenne | 0.0305860 | 0.0001051 |
| p-value test de variances | 0.5874239 | 0.0496256 |
Les résultats des tests de moyennes nous présentent une p-value < 0.05 pour chaque variable, il semble donc que les moyennes soient significativement différentes et que cela n’est pas dû aux fluctuations d’échantillons.
Il en résulte donc que la variable adress joue un rôle dans la moyenne des étudiants, cette variable peut donc expliquer la performance des étudiants.
Health
| GP | MS | GP | MS | |
|---|---|---|---|---|
| 1 | 39 | 7 | 53 | 34 |
| 2 | 38 | 5 | 45 | 30 |
| 3 | 71 | 13 | 81 | 41 |
| 4 | 60 | 5 | 73 | 35 |
| 5 | 120 | 16 | 163 | 80 |
On remarque qu’une grande partie des élèves ont un bon état de santé, ce qui représente 37.56% de l’effectif total. Les élèves qui ont un mauvais état de santé représente quant à eux 13.18%
Pour les élèves qui ont passé les maths, on ne voit pas de grande différence sur la moyenne quelque soit l’école ou l’état de santé. On observe une plus grande disparité de notes pour les élèves de Mousinho da Silveira (MS) que ceux de Grabriel Pereira (GP) : on peut le voir grâce à l’écart interquartile
Pour ceux qui ont effectué les tests de Portugais, à état de santé identique, les élèves appartenant à l’école GP ont une meilleure moyenne de 1,5 à 2 points au-dessus de ceux venant de MS
Famille
Famsize (Taille de la famille)
| GP | MS | GP | MS | |
|---|---|---|---|---|
| GT3 | 236 | 29 | 296 | 151 |
| LE3 | 92 | 17 | 119 | 69 |
Sur les deux premiers graphiques, on peut constater que les étudiants proviennent en majorité d’une famile de plus de 3 personnes pour les deux écoles et deux matières. Concernant les résultats, les notes pour l’école GP sont meilleures que pour l’école MS. Mais que les moyennes sont proches entre le fait de provenir d’une grande famille ou non.
| Maths | Portugais | |
|---|---|---|
| Moyenne GT3 | 10.7559748 | 11.6099925 |
| Moyenne LE3 | 11.2691131 | 11.8900709 |
| Borne inf. de l’IC à 95% de la diff. | -1.3228122 | -0.7613238 |
| Borne sup. de l’IC à 95% de la diff. | 0.2965356 | 0.2011670 |
| p-value du test de moyenne | 0.2134753 | 0.2535296 |
| p-value test de variances | 0.7466638 | 0.2460892 |
Les résultats des tests de moyenne indiquent une p-value > 0.05 pour chaque matière, il semble donc que les moyennes ne soient pas significativement différentes.
Il en résulte donc que la variable famsize ne joue pas un rôle important dans la moyenne des étudiants, cette variable ne peut donc pas vraiment expliquer la performance des étudiants.
Pstatut (Parents séparés ou non)
| GP | MS | GP | MS | |
|---|---|---|---|---|
| A | 34 | 3 | 55 | 24 |
| T | 294 | 43 | 360 | 196 |
Dans les deux premiers graphiques, on remarque qu’il y a plus d’étudiants dont les parents ne sont pas séparés pour les deux écoles et les deux matières.
Pour les maths les notes semblent similaires entre les écoles et les deux facteurs.
Cependant pour le portugais on remarque que les notes pour l’école GP sont plus élevées mais le fait que les parents soient séparés ou non ne semblent pas affecter les notes.
| Maths | Portugais | |
|---|---|---|
| Moyenne pour les parents separes | 11.5945946 | 11.6160338 |
| Moyenne pour les parents ensembles | 10.8298714 | 11.7038369 |
| Borne inf. de l’IC à 95% de la diff. | -0.4677229 | -0.7541080 |
| Borne sup. de l’IC à 95% de la diff. | 1.9971692 | 0.5785016 |
| p-value du test de moyenne | 0.2231953 | 0.7958956 |
| p-value test de variances | 0.8436463 | 0.6263293 |
Les résultats des tests de moyenne nous présentent une p-value > 0.05 pour chaque variable, il semble donc que les moyennes ne soient pas significativement différentes.
Il en résulte donc que la variable famsize ne joue pas un rôle important dans la moyenne des étudiants, cette variable ne peut donc pas vraiment expliquer la performance des étudiants.
Medu (Niveau d’éducation de la mère)
| GP | MS | GP | MS | |
|---|---|---|---|---|
| 0 | 3 | 0 | 3 | 3 |
| 1 | 37 | 17 | 55 | 81 |
| 2 | 91 | 7 | 123 | 62 |
| 3 | 80 | 11 | 99 | 35 |
| 4 | 117 | 11 | 135 | 39 |
Il semble que pour chacune des deux matières les notes de l’étudiant sont meilleures avec le niveau d’éducation de la mère sauf pour le niveau d’éducation 0 mais cela peut s’expliquer par le très faible nombre d’observations. L’effet se remarque surtout pour le niveau 4 où les moyennes augmentent beaucoup. Il y a donc une corrélation positive entre le niveau d’éducation de la mère et la note obtenue.
Cette variable est donc intéressante pour étudier la performance des étudiants.
Fedu (Niveau d’éducation du père)
| GP | MS | GP | MS | |
|---|---|---|---|---|
| 0 | 2 | 0 | 3 | 4 |
| 1 | 59 | 15 | 89 | 78 |
| 2 | 97 | 12 | 124 | 79 |
| 3 | 87 | 10 | 99 | 32 |
| 4 | 83 | 9 | 100 | 27 |
Ici aussi, le niveau de l’étudiant s’améliore avec le niveau d’éducation du père. Sauf pour le niveau 0 mais peut être dû au faible nombre de personnes dans cette catégorie.
Il semble donc y avoir une corrélation et comme pour la variable Medu pour le niveau 4 d’éducation les moyennes augmentent plus fortement.
Cette variable est donc également intéressante pour étudier les performances des étudiants.
Mjob (Secteur de travail de la mère)
| at_home | health | other | services | teacher | Total | at_home | health | other | services | teacher | Total | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| GP | 14.02 | 9.15 | 35.06 | 25.91 | 15.85 | 100 | 15.18 | 8.43 | 38.31 | 24.34 | 13.73 | 100 |
| MS | 21.74 | 4.35 | 41.30 | 19.57 | 13.04 | 100 | 31.82 | 4.55 | 42.73 | 14.09 | 6.82 | 100 |
| Ensemble | 14.97 | 8.56 | 35.83 | 25.13 | 15.51 | 100 | 20.94 | 7.09 | 39.84 | 20.79 | 11.34 | 100 |
On remarque que la plupart des étudiants on une mère qui travaille dans un secteur catégorisé “autre” et en deuxième position se trouve les services publics. En ce qui concerne l’école Gabriel Pereira, il y a moins de mères travaillant à la maison que dans l’école Mousinho Da Silveira.
On remarque grâce à ces deux graphiques que, en maths les moyennes sont les plus élevées pour les élèves dont la mère travaille dans le secteur de la santé. En portugais cela semble pareille pour l’école Gabriel Pereira mais pour l’école Mousinho Da Silveira, ce sont les étudiants avec des mères professeurs qui ont la meilleure moyenne. Toutefois on voit que les différences de moyennes ne sont pas énormes, on peut donc en conclure que le secteur de travail de la mère joue un rôle mais faible.
Fjob (Secteur de travail du père)
| at_home | health | other | services | teacher | Total | at_home | health | other | services | teacher | Total | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| GP | 4.88 | 5.18 | 56.71 | 25.61 | 7.62 | 100 | 4.10 | 4.34 | 59.04 | 25.30 | 7.23 | 100 |
| MS | 8.70 | 0.00 | 45.65 | 41.30 | 4.35 | 100 | 10.91 | 2.27 | 52.27 | 31.82 | 2.73 | 100 |
| Ensemble | 5.35 | 4.55 | 55.35 | 27.54 | 7.22 | 100 | 6.46 | 3.62 | 56.69 | 27.56 | 5.67 | 100 |
Comme pour la mère, la plupart des étudiants ont un père qui travaille dans la catégorie “autre” et dans les services publics.
Il y a également 0 étudiant dont le père travaille dans le secteur de la santé pour la matière maths.
On remarque que pour les deux matières, les meilleures moyennes sont pour les étudiants dont le père est professeur. Toutes les autres moyennes sont plûtot similaires.
Ce qui serait intéressant ici, serait de mettre ensemble tous les facteurs sauf le facteur “teacher” pour créer une variable dummy et voir l’impact de cette variable sur les moyennes des étudiants. Il semble donc que le fait d’avoir un père professeur augmente la moyenne mais sinon la variable Fedu ne joue pas un rôle majeur dans la performance des étudiants.
Guardian
On s’intéresse maintenant à la variable guardian, qui représente le responsable légal de l’enfant. On fait un premier tableau pour avoir les effectifs selon les écoles :| GP | MS | GP | MS | |
|---|---|---|---|---|
| father | 71 | 12 | 90 | 60 |
| mother | 233 | 28 | 297 | 147 |
| other | 24 | 6 | 28 | 13 |
On observe que peu importe l’école, il semblerait que la majorité des responsables légaux sont les mères, loin devant les pères et les autres.
On va maintenant regarder des diagrammes en boite selon la moyenne sur les 3 notes et selon le responsable légal :
On observe que les notes semblent plus faibles lorsque la mère ou le père n’est pas responsable de l’enfant. En effet, on peut imaginer que les personnes n’ayant pas leur mère ou leur père comme responsable légal vivent dans des situations plus instables (exemple : décès des parents, abandons…), ils n’ont donc peut être pas reçu la même éducation que les autres étudiants.
Nous allons tester l’égalité des moyennes pour les notes avec la mère et le père comme responsable légal :
| Maths | Portugais | |
|---|---|---|
| Moyenne avec père responsable | 11.3493976 | 12.0133333 |
| Moyenne avec mère responsable | 10.8595147 | 11.6989489 |
| Borne inf. de l’IC à 95% de la diff. | -0.4118341 | -0.2108092 |
| Borne sup. de l’IC à 95% de la diff. | 1.3915999 | 0.8395779 |
| p-value du test de moyenne | 0.2860096 | 0.2402069 |
| p-value test de variances | 0.1352642 | 0.4522201 |
Les p-value du test étant de 0.286 et de 0.240, on peut donc en conclure que les moyennes des notes ne sont pas significativement différentes peu importe la matière et le responsable de l’étudiant. On observe cependant une moyenne un peu plus élevée lorsque le père est responsable, peu importe la matière.
Famsup
On s’intéresse ici à la variable famsup, qui représente l’aide que les étudiants reçoivent par leurs parents dans la matière concernée. On regarde le tableau des effectifs selon les écoles et les matières :| GP | MS | GP | MS | |
|---|---|---|---|---|
| no | 119 | 28 | 150 | 96 |
| yes | 209 | 18 | 265 | 124 |
Nous regardons également un graphique sur les proportions par école et matière :
Nous observons que la majorité des étudiants reçoivent de l’aide à la maison peu importe la matière pour l’école Gabriel Pereira. Cependant, nous pouvons remarquer que pour l’école Mousinho da Silveira, les étudiants reçoivent peu d’aides en maths ce qui pourrait s’expliquer par le fait que les maths sont plus faciles dans l’école Mousinho da Silveira et donc que les étudiants n’ont pas besoin d’aides ou alors que la famille est comlètement dépassé par le niveau en maths des étudiants et fait appel à des professeurs particuliers.
On observe que les notes ne semblent pas différentes que l’étudiant reçoive de l’aide ou pas en maths et portugais.
| Maths | Portugais | |
|---|---|---|
| Moyenne avec aide de la famille | 10.7870778 | 11.8131962 |
| Moyenne sans aide de la famille | 11.0884354 | 11.5027100 |
| Borne inf. de l’IC à 95% de la diff. | -1.0556146 | -0.1540273 |
| Borne sup. de l’IC à 95% de la diff. | 0.4528995 | 0.7749997 |
| p-value du test de moyenne | 0.4325759 | 0.1896751 |
| p-value test de variances | 0.4108362 | 0.0219478 |
Après avoir tester nos moyennes il ne semblerait pas que l’aide de la famille ait un impact significatif sur les notes, peu importe la matière. Cependant, on observe que les moyennes sont légèrements meilleures en maths lorsque la famille n’aide pas l’élève, on pourrait donc imaginer que les portugais ont un niveau en maths faible et embrouillent les élèves ou bien que seulement les élèves en difficulté demandent de l’aide. Pour le portugais, la moyenne semble légèrement plus élevée quand la famille aide l’élève.
Famrel
Si on estime avoir de bonnes relations familiales à partir de 4/5,on peut constater que pour les élèves qui ont étudié les maths, ont de bonnes relations familiales (environ 50%).
Pour les élèves ayant étudié le portugais, on estime de la même manière leurs relations familiales que ceux ayant étudié les maths.
Mais pour les élèves étant de l’école MS, on observe qu’ils ont de biens meilleures relations si ils ont étudié le portugais plutôt que les maths.
Pour les maths, les élèves de l’école GP ont en général une meilleure moyenne que ceux qui sont de l’école MS. Mais rappelons nous que peu d’étudiants de l’école MS font des maths et surtout que la plupart des élèves ont de bonnes relations avec leur famille. Les moyennes ne sont donc peut-être pas représentatives.
Pour le portugais, les élèves de l’école GP ont de biens meilleures moyennes que les élèves venant de l’école MS. Mais nous pouvons constater que l’écart de moyenne entre les deux écoles diminue plus la qualité des relations familiales augmentent.
Milieu scolaire
Ecole
En maths, on remarque que les moyennes semblent similaires. En portugais, les moyennes semblent différentes entre les écoles.
Nous alons faire des tests pour voir si cela n’est pas dû aux effets d’échantillons :
| Maths | Portugais | |
|---|---|---|
| Moyenne pour l’école Gabriel Pereira | 10.9989837 | 12.297189 |
| Moyenne pour l’école Mousinho Da Silveira | 10.2391304 | 10.553030 |
| Borne inf. de l’IC à 95% de la diff. | -0.3600967 | 1.257191 |
| Borne sup. de l’IC à 95% de la diff. | 1.8798034 | 2.231126 |
| p-value du test de moyenne | 0.1829811 | 0.000000 |
| p-value test de variances | 0.8806562 | 0.000000 |
On peut voir d’après le tableau que, pour les maths la p-value est > 0.05 ce qui signifie que les moyennes semblent significativement égales mais en portugais au contraire les moyennes semblent significativement différentes car la p-value est inférieure à 0.05 de beaucoup. On peut donc en conclure que pour la matière maths les écoles n’expliquent pas les differences de performance des étudiants au contraire de la matière portugais. Tout ceci dans l’hypothèse que les écoles proposent un programme similaires et des évaluations d’un niveau de difficulté identique.
Reason
Nous nous intéressons ici à la variable reason, qui est un facteur sur la raison pour laquelle les étudiants sont venus dans cette école. Les facteurs sont la réputation, les cours, la proximité de leur domicile, et autre. Voici un tableau des effectifs par facteur selon l’école et la matière :| GP | MS | GP | MS | |
|---|---|---|---|---|
| course | 116 | 21 | 162 | 113 |
| home | 92 | 11 | 113 | 34 |
| other | 24 | 9 | 27 | 44 |
| reputation | 96 | 5 | 113 | 29 |
Il semblerait que les étudiants de l’école Gabriel Pereira soient majoritairement venus pour les cours et en deuxième on retrouve la réputation de l’école et la proximité de leur résidence. Du côté de l’école Mousinho da Silveira, il semblerait que ce soit majoritairement lié aux cours que proposent l’école.
On le montre graphiquement :
Nous allons regarder si les les moyennes générales sont impactés par la raison du choix de l’école :
Pour les notes de portugais, il semblerait que les personnes venues pour la réputation de l’école aient de meilleures notes que les autres, peu importe l’école choisie. Du côté des maths, il ne semblerait pas y avoir de différences de notes par raison.
Traveltime
Nous allons maintenant nous intéresser à la variable traveltime qui représente le temps passer entre le logement et l’école. On regarde le tableau des effectifs selon l’école et la matière :| GP | MS | GP | MS | |
|---|---|---|---|---|
| Moins de 15 | 234 | 14 | 279 | 82 |
| Entre 15 et 30 | 75 | 23 | 106 | 100 |
| Entre 30 et 60 | 14 | 8 | 19 | 33 |
| Plus de 60 | 5 | 1 | 11 | 5 |
On remarque que plus l’on s’éloigne moins il y a de personnes. La majeure partie des étudiants se trouve à moins de 15 minutes de leur école pour l’école Gabriel Pereira, tandis que pour l’école Mousinho da Silveira, il semblerait que la majorité des étudiants habite à entre 15 et 30 minutes de l’école.
On le confirme par un histogramme :
On s’intéresse maintenant à la répartition des notes selon le temps de trajet :
Il semblerait que plus l’on s’éloigne de l’école moins les notes sont bonnes en portugais et maths pour l’école Gabriel Pereira, tandis que, du côté de l’école Mousinho da Silveira, il ne semble pas y avoir de relation entre notes et temps de trajet.
Studytime
Nous allons maintenant nous intéresser à la variable studytime qui traite du temps en heures par semaine consacré aux études :| GP | MS | GP | MS | |
|---|---|---|---|---|
| Moins de 2h | 80 | 16 | 113 | 90 |
| Entre 2 et 5h | 167 | 22 | 204 | 96 |
| Entre 5 et 10h | 55 | 8 | 71 | 26 |
| Plus de 10h | 26 | 0 | 27 | 8 |
On remarque que la majorité des étudiants passent moins de 5h par semaine sur leurs cours peu importe l’école et la matière. On le montre avec graphique :
Nous allons nous intéresser maintenant à la moyenne des notes selon le temps travaillé :
Il semblerait qu’il y ait une relation croissante entre les notes en portugais et le temps en heure(s) passé à étudier par semaine. Du côté des maths on observe la même chose pour l’école Mousinho da Silveira, cependant, cela semble plus flou pour l’école Gabriel Pereira, on n’a pas l’impression qu’il y ait de relation quelconque, ce qui peut être lié au fait que plus l’on passe de temps sur les maths plus cela veut dire que l’on a des difficultés.
Nous allons regarder si nos moyennes en maths et portugais dépendent du temps passé sur les cours. On va comparer les moyennes des étudiants travaillant moins de 5h et plus de 5h :
| Maths | Portugais | |
|---|---|---|
| Moyenne avec 5h ou moins de travaillé par semaine | 10.6233918 | 11.3982770 |
| Moyenne avec plus de 5h de travaillé par semaine | 11.8089888 | 12.8156566 |
| Borne inf. de l’IC à 95% de la diff. | -2.0429501 | -1.9479395 |
| Borne sup. de l’IC à 95% de la diff. | -0.3282438 | -0.8868196 |
| p-value du test de moyenne | 0.0068507 | 0.0000002 |
| p-value test de variances | 0.8250178 | 0.1568815 |
On observe donc que les moyennes sont significativement différentes pour le portugais. C’est-à-dire que la moyenne des étudiants travaillant plus de 5h est significativement plus élevée que les étudiants travaillant moins de 5h. Du côté des notes de maths, il semblerait que les notes soient plus élevées pour les personnes travaillant plus de 5h.
Paid
On va maintenant s’intéresser à la variable paid qui correspond aux étudiants ayant reçu de l’aide extra-scolaire de la part de professeurs particuliers. On regarde donc le tableau des effectifs selon la matière et l’école :| GP | MS | GP | MS | |
|---|---|---|---|---|
| no | 173 | 26 | 390 | 207 |
| yes | 155 | 20 | 25 | 13 |
Il semblerait que les étudiants ne reçoivent presque pas de cours particuliers en portugais, peu importe l’école, tandis que les proportions semblent plutôt similaires pour les maths. On peut donc en conclure que les étudiants ont plus de difficultés en maths qu’en portugais, peu importe l’école.
Ce diagramme en boite nous confirme ce que l’on pensait précédemment :
Notre a priori initial sur les maths qui disait que peut être les familles payaient des cours particuliers à leurs enfants s’avère fausse puisque l’on remarque que la proportion d’étudiants recevant des cours payés est plus faible que la proportion d’étudiants ne recevant pas de cours payés.
On regarde la moyenne des notes selon l’école, la matière et le fait que les étudiants aient eu un prof particulier ou pas :
Dans le cas des notes de portugais, les élèves recevant des cours particuliers semblent avoir de légèrement moins bonnes notes que les étudiants ne recevant pas d’aides, cela peut être lié au fait qu’ils ont besoins d’aides et donc c’est pour ça qu’ils prennent des cours particuliers. Cependant, on observe que la dispersion est plus faible, mais cela pourrait être lié à la différence d’effectif entre les 2 groupes. Du côté des maths, il semblerait que les notes soient similaires, peu importe que l’on ait un professeur particulier ou pas.
| Maths | Portugais | |
|---|---|---|
| Moyenne avec l’aide d’un professeur particulier | 11.1314286 | 11.1228070 |
| Moyenne sans l’aide d’un professeur particulier | 10.7068677 | 11.7292016 |
| Borne inf. de l’IC à 95% de la diff. | -0.3017204 | -1.5323740 |
| Borne sup. de l’IC à 95% de la diff. | 1.1508422 | 0.3195849 |
| p-value du test de moyenne | 0.2510888 | 0.1989213 |
| p-value test de variances | 0.0008879 | 0.1259764 |
Il semblerait que les moyennes ne soient pas significativement différentes que l’élève reçoive de l’aide d’un professeur particulier ou pas. Cependant on aurait tendance à penser que l’aide en maths est bénéfique pour les élèves puisque leur moyenne est un peu plus élevée, tandis qu’en portugais il semblerait que seulement les étudiants ayant des difficultés ont un professeur particulier car la moyenne est non significativement plus élevée chez les étudiants ne recevant pas d’aides.
Failures
Nous allons nous intéresser à la variable failures qui comporte les redoublements pour chaque individu :| GP | MS | GP | MS | |
|---|---|---|---|---|
| 0 | 280 | 32 | 376 | 173 |
| 1 | 38 | 9 | 27 | 39 |
| 2 | 5 | 3 | 8 | 5 |
| 3 | 5 | 2 | 4 | 3 |
La grande majorité des étudiants n’ont jamais redoublé, peu importe l’école.
On s’intéresse donc à la moyenne des notes selon le nombre de redoublements :
On remarque une relation négative entre le nombre de redoublements et la moyenne des notes pour toutes les écoles. Ceci peut semble logique puisqu’un étudiant redouble si il n’a pas de bonnes notes.
Nous allons confirmer par un test le fait que les étudiants n’ayant jamais redoublé ont une meilleure moyenne que les étudiants ayant redoublé une fois ou plus :
| Maths | Portugais | |
|---|---|---|
| Moyenne des personnes n’ayant jamais redoublé | 11.356838 | 12.1669702 |
| Moyenne des personnes ayant déjà redoublé | 8.634409 | 8.6666667 |
| Borne inf. de l’IC à 95% de la diff. | 1.770605 | 2.9185560 |
| Borne sup. de l’IC à 95% de la diff. | 3.674253 | 4.0820512 |
| p-value du test de moyenne | 0.000000 | 0.0000000 |
| p-value test de variances | 0.921284 | 0.6098591 |
On observe que peu importe les matières, les moyennes sont significativement différentes avec une moyenne beaucoup plus élevée pour les personnes n’ayant jamais redoublé.
Schoolsup
Nous allons nous intéresser à la variable schoolsup qui représente les étudiants recevant de l’aide extra scolaire :| GP | MS | GP | MS | |
|---|---|---|---|---|
| no | 283 | 46 | 360 | 209 |
| yes | 45 | 0 | 55 | 11 |
On remarque que la très grande majorité ne reçoit pas d’aides extra scolaire (variable en contradiction avec la variable paid, que veut dire “aide extra scolaire” dans ce cas ?).
Nous allons maintenant nous intéresser aux notes selon le fait que les étudiants reçoivent ou non de l’aide extra scolaire :
Il ne semblerait pas qu’il y ait de relation, les notes semblent plutôt égales peu importe l’école.
On va le vérifier par un test de moyenne :
| Maths | Portugais | |
|---|---|---|
| Moyenne recevant de l’aide extérieure | 9.5777778 | 11.1464646 |
| Moyenne ne recevant pas d’aide extérieure | 11.0871327 | 11.7562976 |
| Borne inf. de l’IC à 95% de la diff. | -2.3076231 | -1.1455500 |
| Borne sup. de l’IC à 95% de la diff. | -0.7110868 | -0.0741159 |
| p-value du test de moyenne | 0.0003194 | 0.0260837 |
| p-value test de variances | 0.0002339 | 0.0001683 |
Il semblerait que pour la variable maths que les moyennes sont significativement différentes avec une moyenne plus élevée pour les étudiants ne recevant pas d’aides extérieures. Du côté des notes de portugais, il semblerait que les moyennes en portugais soient un peu plus élevées lorsque l’étudiant ne reçoit pas d’aides extérieures.
Nursery
Cette variable représente les étudiants ayant été en maternelle :| GP | MS | GP | MS | |
|---|---|---|---|---|
| no | 61 | 14 | 82 | 43 |
| yes | 267 | 32 | 333 | 177 |
On observe que plus de 75% des étudiants ont été en maternelle. On va donc maintenant regarder si il y a une corrélation entre les notes et le fait d’avoir été à la maternelle ou non :
Il semblerait qu’il n’y ait pas de relation entre le fait d’avoir été à la maternelle et les notes obtenues en portugais et maths, peu importe l’école.
On le confirme en faisant un test de moyenne :
| Maths | Portugais | |
|---|---|---|
| Moyenne de ceux ayant été en maternelle | 10.9799331 | 11.7405229 |
| Moyenne de ceux n’ayant pas été en maternelle | 10.6088889 | 11.4986667 |
| Borne inf. de l’IC à 95% de la diff. | -0.5490197 | -0.3109255 |
| Borne sup. de l’IC à 95% de la diff. | 1.2911081 | 0.7946379 |
| p-value du test de moyenne | 0.4282856 | 0.3905679 |
| p-value test de variances | 0.3011148 | 0.3385601 |
D’après nos résultats, il ne semblerait pas que d’avoir été en maternelle ait un impact significatif sur les moyennes en maths et portugais, la moyenne n’est que légèrement plus élevée.
Higher
| GP | MS | GP | MS | |
|---|---|---|---|---|
| no | 15 | 3 | 30 | 37 |
| yes | 313 | 43 | 385 | 183 |
On observe une très grande disparité dans le choix de continuer ou non : seul 85 élèves ne souhaitent pas continuer leurs études.
Pour le portugais, on observe que les élèves voulant continuer leurs études ont de biens meilleures moyennes que ceux qui ne veulent pas continuer. On voit aussi que pour ceux venant de GP, le 1er quantile de ceux qui veulent continuer est plus élevé que le 3ème quantile de ceux qui veulent arrêter.
Pour les maths, nous pouvons apporter la même analyse. Nous constatons que les élèves venant de MS et ne voulant pas continuer ont une médiane très importante mais quand nous regardons de plus près, ils ne sont que 3 élèves donc le résultat est peut-être faussé.
| Maths | Portugais | |
|---|---|---|
| Moyenne d’un etudiant qui ne veut pas continuer les études | 7.6481481 | 8.7363184 |
| Moyenne d’un etudiant qui veut continuer les etudes | 11.0702247 | 12.0416667 |
| Borne inf. de l’IC à 95% de la diff. | -5.1089976 | -3.8831978 |
| Borne sup. de l’IC à 95% de la diff. | -1.7351555 | -2.7274987 |
| p-value du test de moyenne | 0.0000799 | 0.0000000 |
| p-value test de variances | 0.8480697 | 0.0456635 |
Grâce aux deux p-value et aux intervalles de confiance, on peut affirmer que l’on rejette l’hypothèse \(H_0\) qui signifie que les moyennes ne sont pas égales : les deux moyennes sont significativement différentes.
On peut en conclure que la variable représentant la poursuite d’étude est importante pour les résultats d’un étudiant.
Absences
Tout d’abord, nous remarquons que les étudiants ayant passé les maths sont plus absents que ceux ayant passé le portugais.
Ensuite, nous constatons que plus le nombre d’absences augmente plus la moyenne diminue
Extra-scolaire
Internet
| GP | MS | GP | MS | |
|---|---|---|---|---|
| no | 50 | 14 | 64 | 81 |
| yes | 278 | 32 | 351 | 139 |
La majorité des lycéens ont internet chez eux mais on constate que 209 élèves n’y ont pas accès, soit 20.71% des effectifs, ce qui est assez conséquent.
On constate que les étudiants ayant internet chez eux ont une meilleure moyenne dans leur matière quel que soit leur école. Nous voyons de faibles écarts entre ceux qui ont internet et les autres. Seul les élèves en maths ayant internet dans l’école GP se sont plus démarqués des autres.
| Maths | Portugais | |
|---|---|---|
| Moyenne d’un etudiant qui ne possede pas internet | 9.8697917 | 10.9448276 |
| Moyenne d’un etudiant qui possede internet | 11.1193548 | 11.9142857 |
| Borne inf. de l’IC à 95% de la diff. | -2.2202333 | -1.4878851 |
| Borne sup. de l’IC à 95% de la diff. | -0.2788931 | -0.4510312 |
| p-value du test de moyenne | 0.0117740 | 0.0002608 |
| p-value test de variances | 0.9857988 | 0.1212126 |
Avec l’aide des résultats, nous pouvons affirmer que nous rejetons l’hypothèse \(H_0\): les deux moyennes ne sont pas égales. Cette variable a donc un rôle important dans la réussite scolaire.
Dalc et Walc
Si nous considérons qu’une consommation d’alcool est importante à partir de 4, cela signifie que 5% des étudiants ont une consommation importante en semaine et cela passe à 20% le week-end. La non (ou peu) consommation réduit presque de moitié entre la semaine et le week-end (de 69,6% à 38,1%).
On constate une liaison entre la consommation d’alcool et les résultats : plus la consommation d’alcool est importante, plus la moyenne des notes diminue, elle peut même diminuer jusqu’à deux points. Cette liaison est plus importante pour les lycéens étudiant le portugais.
| Maths | Portugais | |
|---|---|---|
| Moyenne d’un individu consommant peu d’alcool | 10.9400749 | 11.8058791 |
| Moyenne d’un individu consommant beaucoup d’alcool | 10.2222222 | 9.6960784 |
| Borne inf. de l’IC à 95% de la diff. | -0.5257903 | 1.1468339 |
| Borne sup. de l’IC à 95% de la diff. | 1.9614957 | 3.0727674 |
| p-value du test de moyenne | 0.2435211 | 0.0000196 |
| p-value test de variances | 0.0428654 | 0.7931514 |
Pour les étudiants en maths, la p-value est supérieure à 0,05 donc on conserve l’hypothèse d’égalité des moyennes.
Tandis que pour les étudiants en portugais, la p-value est inférieure à 0,05 donc nous rejetons l’hypothèse d’égalité des moyennes.
En conclusion, la variable sexe ne semble pas avoir un impact majeur dans les notes obtenues en maths par les étudiants alors que du côté des notes de portugais, il semblerait qu’il y ait un impact sur les notes.
| Maths | Portugais | |
|---|---|---|
| Moyenne d’un individu consommant peu d’alcool | 11.0684327 | 11.9432343 |
| Moyenne d’un individu consommant beaucoup d’alcool | 10.2222222 | 10.7205128 |
| Borne inf. de l’IC à 95% de la diff. | -0.0849515 | 0.6861002 |
| Borne sup. de l’IC à 95% de la diff. | 1.7773724 | 1.7593428 |
| p-value du test de moyenne | 0.0747569 | 0.0000091 |
| p-value test de variances | 0.0713703 | 0.0919913 |
Pour la consommation d’alcool le week-end, nous pouvons en conclure la même chose : la variable Walc a un impact sur les notes de portugais mais pas sur celles de maths.
freetime, goout et romantic
On constate une forte corrélation entre les deux variables. Pour les deux écoles, on peut observer les proportions : les élèves ont moyennement de temps libre et sortent de la même façon avec leurs amis.
Les élèves des deux écoles sont en proportion plus célibataire qu’en couple, même si la proportion des célibataires est plus faible dans l’école MS que dans l’école GP (59,4 contre 66,4).
Nous allons commencer par les maths :
Dans l’école GP, il n’y a aucune différence de moyenne que les élèves soient en couple ou non. Pour l’école MS, les élèves ont 2 points de plus que les célibataires.
Pour le temps libre des élèves, on ne voit pas de relation positive ou négative entre le temps libre et les moyennes. On peut juste constater que les élèves de GP sont meilleurs que ceux de MS quel que soit le niveau de temps libre.
Pour les sorties avec les amis, on observe deux relations inverses : plus les élèves appartenant à l’école GP sortent avec leur amis, plus leur moyenne baissent; alors que pour les élèves de MS, c’est tout le contraire !
Pour le portugais:
On observe que se soit dans l’école GP ou MS, les élèves célibataires ont une moyenne légérement plus élevée que les élèves en couple.
Pour les élèves appartenent à l’école GP, on constate que leur meilleure moyenne se situe quand ils sortent peu ou moyennement et pareil pour le temps libre.
Pour les élèves appartenant à MS, nous pouvons constater la même chose que ceux venant de GP, cependant leurs moyennes sont bien plus basses.
Test de moyenne sur la variable romantic
Maths
Portugais
Moyenne d’un etudiant celibataire
11.1520000
11.8784119
Moyenne d’un etudiant en couple
10.4086022
11.3706897
Borne inf. de l’IC à 95% de la diff.
-0.0361218
0.0527244
Borne sup. de l’IC à 95% de la diff.
1.5229175
0.9627201
p-value du test de moyenne
0.0615424
0.0287959
p-value test de variances
0.9863274
0.2032482
Au vu des graphiques précédents et des résultats des tests, nous pouvons dire que nous conservons l’hypothèse \(H_0\) pour les maths, c’est-à-dire que les moyennes ne sont pas significativement différentes.
Pour le portugais, nous pouvons presque affirmer la même chose.
Cette variable n’a donc pas un rôle majeur dans la réussite des étudiants.
Conclusion
À la suite de notre analyse descriptive, nous avons pu déterminer quelles variables jouent un rôle prépondérant dans la performance des étudiants :
Pour la catégorie renseignement, nous avons l’adresse
Pour la catégorie famille, nous avons le niveau d’éducation de la mère et du père
Pour la catégorie milieu scolaire, nous avons l’école (seulement pour la base de données sur le portugais), le temps de travail, les redoublements, la poursuite d’étude, les absences
Pour la catégorie extre-scolaire, nous avons l’accès à internet, la consommation d’alcool le week-end et la semaine (seulement pour la base de données sur le portugais), le temps libre en dehors des cours et les sorties entre amis.
Au contraire, nous avons également vu quelles variables ne jouent pas un rôle dans la performance des étudiants :
Pour la catégorie renseignement, nous avons le sexe, l’âge et l’état de santé
Pour la catégorie famille, nous avons la taille de la famille, la situation des parents, le responsable légal, l’aide de la famille et le niveau de la relation avec la famille
Pour la catégorie milieu scolaire, nous avons l’école (seulement pour la base de données sur les maths), les raisons du choix de l’école, le temps de trajet pour aller à l’école, et si l’élève a été à la maternelle
Pour la la catégorie extra-scolaire, nous avons la relation amoureuse ou non, la consommation d’alcool le week-end et la semaine (seulement pour les maths)
Toutefois ce classement des variables se base sur de grosses hypothèses et il se peut que nos résultats ne représentent pas parfaitement la réalité.
De plus, certaines variables peuvent être mises en relation telles que la zone d’habitation et le temps de trajet pour aller à l’école. Le but futur sera donc de trouver des variables qui peuvent être rassemblées et qui peuvent avoir un impact sur la performance des étudiants. Nous pourrons également déterminer, si pour nos deux bases de données, se sont les mêmes variables qui jouent un rôle dans la moyenne des élèves.
Pour finir, nous avons pû remarquer dans notre analyse descriptive que de comparer les deux écoles n’était pas forcement intéressant dû au manque de données pour l’école Mousinho Da Silveira où pour beaucoup de variables nous n’avons que trop peu de données.